standard per lÆesclusione di alcune aree del sito dallÆattività di un robot
|
Un documento stilato nella sua forma finale il 30 giugno 1994 a cui
aderisce la maggior parte degli autori di robot. Ha lo scopo di definire
un meccanismo che consenta ai gestori dei server Web di limitare
lÆinvadenza dei robot, indicando in modo esplico le aree non accessibili
allÆinterno del sito. LÆiniziativa ha preso lo spunto dal verificarsi, nel
1993 e nel 1994, di vari casi dÆinvadenza nociva. Un esempio e quello si
server che sono stati messi in ginocchio dai robot che richiedevano
documenti a raffica (rapid-fire), oppure che continuavano a recuperare
sempre il medesimo documento (per un proprio difetto di progettazione). Un
altro caso è quello in cui il robot recuperava documentazione temporanea o
duplicata.
Il metodo dÆinterdizione consiste nel far generare allÆamministratore del
server un file che specifichi le regole di accesso per i robot entranti.
Il file si chiama robots.txt e deve essere accessibile mediante protocollo
HTTP (HyperText Transfer Protocol) sul locale URL (Uniform Resource
Locator) subito sotto la radice, ad esempio www.miol.it/robots.txt. Al
robot basta recuperare questo singolo testo per sapere come regolarsi
allÆinterno del sito.
Il file contiene uno o più record, ciascuno separato da un ritorno a capo
e da almeno una riga vuota. Il record contiene a sua volta diversi campi
che indicano il nome del robot a cui le righe che seguono si riferiscono e
le porzioni di sito che il robot deve evitare.
La sintassi è campo:valore con un eventuale spazio dopo i due punti. Nel
digitare il nome del campo bisogna rispettare maiuscole e minuscole.
Gli eventuali commenti vengono preceduti dal simbolo di cancelletto #
mentre lÆasterisco * costituisce il classico carattere jolly
onnicomprensivo.
Il record inizia con una o più righe corrispondenti ad altrettanti campi
di tipo User-agent in cui si indica il particolare robot a cui le
istruzioni che seguono sono riferite (il carattere * estende lÆefficacia a
tutti i robot che rispettano questa convenzione). Seguono una o più righe
corrispondenti al campo Disallow in cui si specificano le aree vietate del
sito.
Esempio di file robots.txt per il sito www.miol.it
User-agent: *
Disallow: /help # file di aiuto
Disallow: /tmp/ # aree temporanee
In questo caso tutti i robot devono seguire le indicazioni specificate
dalle due righe precedute da Disallow. Nella prima riga vengono esclusi
tutti i file contenuti nella directory /help e tutte le relative
sottodirectory oltre che i file di queste ultime (tutti gli URL che
corrispondono a queste indicazioni di percorso). Nella seconda riga
vengono esclusi tutti i file contenuti nelle sottodirectory che dipendono
da /tmp, ma non i file che si trovano nella directory /tmp.
Dovete sempre indicare almeno un valore per User-agent e almeno un valore
per Disallow, altrimenti il file robots.txt è inutile.
Altro esempio:
User-agent: Lycos
Disallow:
User-agent: MOMspider
Disallow: /tmp
Disallow: /help
User-agent: *
Disallow: /
Secondo le definizioni di questo secondo esempio di file robots.txt lo
spider Lycos ha libero accesso a tutte le risorse del sito, lo spider MOM
è tagliato completamente fuori, visto che non può accedere a nessun
documento che sia al di sotto della radice del sito, tutti gli altri robot
sono diffidati dal curiosare nelle directory /tmp e /help.
|
|